Weighted Transmedia Relevance Feedback for Image Retrieval and Auto-annotation
نویسندگان
چکیده
Currently large scale multimodal image databases have become widely available, for example via photo sharing sites where images come along with textual descriptions and keyword annotations. Most existing work on image retrieval and image auto-annotation has considered uni-modal techniques, either focusing on query-by-example systems or query-by-text systems for image retrieval, and mono modal classification for image auto-annotation. However recent state-of-the-art multimodal image retrieval and image auto-annotation systems combine different uni-modal models using late-fusion techniques. In addition, significant advances have been made by using pseudo-relevance feedback techniques, as well as using transmedia relevance models that swap modalities in the query expansion step of pseudo-relevance methods. While these techniques are promising it is not trivial to set the parameters that control the late fusion and pseudo/cross relevance models. In this paper, we therefore propose approaches to learn these parameters from a labeled training set: queries with relevant and non-relevant documents, or images with relevant and non-relevant keywords. Three additional contributions are the introduction of (i) two new parameterizations of transmedia and pseudo-relevance models, (ii) correction parameters for inter-query variations in the distribution of retrieval scores for both relevant and non-relevant documents, and (iii) the extension of TagProp, a nearest neighbor based image annotation method to exploit transmedia relevance feedback. We evaluate our models using public benchmark data sets for image retrieval and annotation. Using the data set of the ImageClef 2008 Photo Retrieval task, our retrieval experiments show that our learned models lead to significant improvements of retrieval performance over the current state-of-the-art. In our experiments on image annotation we use the COREL and IAPR data sets, and also here we observe annotation accuracies that improve over the current state-of-the-art results on these data sets. Key-words: image auto annotation, multi-modal image retrieval, pseudo relevance feedback ∗ T. Mensink and J. Verbeek are in the LEAR group of INRIA Grenoble. † T. Mensink and G. Csurka are in the TVPA group of Xerox Research Centre Europe. ha l-0 06 45 60 8, v er si on 1 28 N ov 2 01 1 Méthode de pertinence cross-modale pondérée pour le recherche et l’annotation d’images Résumé : De nos jours, de plus en plus de larges bases d’images avec des textes et métadonnées associées sont disponibles sur la Toile. On peut mentionner par exemple, des sites de partage de photos où les images viennent avec des descriptions textuelles, des commentaires et des annotations avec des mots de clés. Malgré cela, les plupart des systèmes de recherche d’images existantes sont des techniques qui considèrent en générale une des modalités, soit visuelle, en se concentrant sur recherche par exemple, soit textuelle, en utilisant seulement le nom de l’image et les textes associés pour retrouver les images pertinentes. De même, les systèmes d’annotation automatique d’image sont en générale monomodales. Cependant, de travaux récents sur la recherche d’images multimodales et annotations d’image ont montrés que la combinaison des différents systèmes uni-modaux, même par des techniques simples comme la fusion tardives des résultats, permet d’obtenir des résultats supérieurs à ceux obtenus avec des systèmes monomodaux. En outre, des progrès significatifs ont été réalisés grâce à des techniques de type « pseudo-relevance feedback», notamment utilisant des modèles de pertinence. Ces modèles utilise d’abord une des modalités pour retrouver des éléments pertinents et pour enrichir la requête, puis une nouvelle recherche est effectué avec la requête enrichi, mais en utilisant l’autre modalité. Bien que ces techniques sont prometteuses, ce n’est pas toujours triviale de définir les paramètres qui contrôlent les modèles de pertinence (pseudo et/ou cross) et leurs fusion. Dans ce papier, nous proposons donc des approches qui permettent d’apprendre ces paramètres à partir d’un ensemble d’apprentissage étiquetés, c’est-à-dire, des requêtes avec des documents pertinents et non pertinents ou des images avec des mots clés pertinents et non-pertinentes. Cette contribution du papier est complétée par : (i) l’introduction de deux nouvelles paramétrisations des modèles de pertinence pseudo et cross-modale ; (ii) la proposition des paramètres de correction des variations de la distribution des scores de pertinence d’une requête à une autre ; (iii) et l’extension de TagProp – une méthode d’annotation d’image basées sur la recherche des plus proches voisins – avec l’intégration des modèles de pertinence cross-modales. Nos modèles sont évalués sur des données d’images de références publiques et souvent utilisées pour comparer les méthodes de recherche et d’annotation d’images. En utilisant l’ensemble des données de la tâche de recherche de photos pertinentes de l’ImageCLEF 2008, les résultats de nos expériences montrent que les modèles avec les paramètres apprises conduisent à des améliorations significatives des performances comparées à des résultats dans l’état de l’art actuel. De même, dans nos expériences concernant l’annotation d’image, utilisant les bases d’images COREL et IAPR, nous observons une amélioration des précisions d’annotation par rapport à la version de base de TagProp, qui est à ce jours parmi les méthodes les plus performantes sur ces ensembles de données. Mots-clés : annotation automatique d’images, indexation et recherche multimodale d’images, modèle de pertinence pseudo et cross-modale ha l-0 06 45 60 8, v er si on 1 28 N ov 2 01 1 Weighted Transmedia Relevance Feedback 3
منابع مشابه
Document Image Retrieval Based on Keyword Spotting Using Relevance Feedback
Keyword Spotting is a well-known method in document image retrieval. In this method, Search in document images is based on query word image. In this Paper, an approach for document image retrieval based on keyword spotting has been proposed. In proposed method, a framework using relevance feedback is presented. Relevance feedback, an interactive and efficient method is used in this paper to imp...
متن کاملTrans Media Relevance Feedback for Image Autoannotation
Automatic image annotation is an important tool for keyword-based image retrieval, providing a textual index for non-annotated images. Many image auto annotation methods are based on visual similarity between images to be annotated and images in a training corpus. The annotations of the most similar training images are transferred to the image to be annotated. In this paper we consider using al...
متن کاملTrans-Media Pseudo-Relevance Feedback Methods in Multimedia Retrieval
We present here some transmedia similarity measures that we recently designed by adopting some “intermediate level” fusion approaches. The main idea is to use some principles coming from pseudorelevance feedback and, more specifically, transmedia pseudo-relevance feedback for enriching the mono-media representation of an object with features coming from the other media. One issue that arises wh...
متن کاملبازیابی تعاملی تصاویر طبیعت با بهره گیری از یادگیری چند نمونه ای
Content-based image retrieval (CBIR) has received considerable research interest in the recent years. The basic problem in CBIR is the semantic gap between the high-level image semantics and the low-level image features. Region-based image retrieval and learning from user interaction through relevance feedback are two main approaches to solving this problem. Recently, the research in integra...
متن کاملXRCE's Participation to ImageCLEFphoto 2007
Our participation to ImageCLEFphoto07, for the first time, was motivated by assessing several transmedia similarity measures that we recently designed and developed. The object of investigation consists here in some “intermediate level” fusion approaches, where we use some principles coming from pseudo-relevance feedback and, more specifically, use transmedia pseudo-relevance feedback for enric...
متن کامل